Начнём с первой работы, применяющей большие языковые модели в программировании - OpenAI Codex. В основе GitHub Copilot лежит именно эта модель.
Концептуально система работает так: 1) Обучение - языковая модель GPT файнтюнится на генерацию кода, датасет для этого состоит из пар (docstring, code), взятых из питоновских файлов с кодом на гитхабе. 2) Генерация - Codex генерирует много сэмплов программ (до 1000), которые затем фильтруются по "публичным" тестам (образцам из условия задачи), и выбирается топ программ по среднему логарифму вероятности токена.
Если модель дотюнить на вручную сделанном датасете из пар (docstring, code), то получается модель Codex-S, которая работает ещё немного лучше.
В результате система значительно обходит чистую GPT на датасете с задачками APPS. До superhuman-производительности в этой сфере ещё очень далеко, по причинам, которые мы позднее обсудим. Оставайтесь с нами, чтобы узнать, что было после Codex!
Начнём с первой работы, применяющей большие языковые модели в программировании - OpenAI Codex. В основе GitHub Copilot лежит именно эта модель.
Концептуально система работает так: 1) Обучение - языковая модель GPT файнтюнится на генерацию кода, датасет для этого состоит из пар (docstring, code), взятых из питоновских файлов с кодом на гитхабе. 2) Генерация - Codex генерирует много сэмплов программ (до 1000), которые затем фильтруются по "публичным" тестам (образцам из условия задачи), и выбирается топ программ по среднему логарифму вероятности токена.
Если модель дотюнить на вручную сделанном датасете из пар (docstring, code), то получается модель Codex-S, которая работает ещё немного лучше.
В результате система значительно обходит чистую GPT на датасете с задачками APPS. До superhuman-производительности в этой сфере ещё очень далеко, по причинам, которые мы позднее обсудим. Оставайтесь с нами, чтобы узнать, что было после Codex!
BY Knowledge Accumulator
Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283
Telegram and Signal Havens for Right-Wing Extremists
Since the violent storming of Capitol Hill and subsequent ban of former U.S. President Donald Trump from Facebook and Twitter, the removal of Parler from Amazon’s servers, and the de-platforming of incendiary right-wing content, messaging services Telegram and Signal have seen a deluge of new users. In January alone, Telegram reported 90 million new accounts. Its founder, Pavel Durov, described this as “the largest digital migration in human history.” Signal reportedly doubled its user base to 40 million people and became the most downloaded app in 70 countries. The two services rely on encryption to protect the privacy of user communication, which has made them popular with protesters seeking to conceal their identities against repressive governments in places like Belarus, Hong Kong, and Iran. But the same encryption technology has also made them a favored communication tool for criminals and terrorist groups, including al Qaeda and the Islamic State.
For some time, Mr. Durov and a few dozen staffers had no fixed headquarters, but rather traveled the world, setting up shop in one city after another, he told the Journal in 2016. The company now has its operational base in Dubai, though it says it doesn’t keep servers there.Mr. Durov maintains a yearslong friendship from his VK days with actor and tech investor Jared Leto, with whom he shares an ascetic lifestyle that eschews meat and alcohol.